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摘 要 : 如何 有 效 利 用 多 核 提 供 的 丰富 晶体 


管 资源 对 串 行程 序 的 执行 进行 加 速 是 当前 研究 中 的 热点 问题 。 线 程 级 推测 


技术 (thread-level speculation, TLS) 旨 在 充分 利用 多 核资 源 , 最 大 化 地 开发 出 串 行 代码 中 存在 的 潜在 并 行 性 。 目 前 TLS 
技术 已 经 在 多 种 串 行 应 用 的 并 行 化 工作 中 得 到 有 效 利用 ， 但 嵌入 式 应 用 程序 仍 未 在 推测 并 行 化 方面 进行 有 效 的 分 析 。 
因此 ， 本 文选 取 了 8 个 具有 代表 性 的 诅 入 式 应 用 ， 对 其 在 循环 级 推测 并 行 化 中 的 性 能 提升 潜力 和 运行 时 特 
赖 、 线 程 粒 度 和 并 行 覆 盖 率 ) 进行 探讨 。 实 验 结果 表明 : a) 利用 线程 级 推测 并 行 化 髓 入 式 应 用 的 加 速效 果 优 于 指令 级 
并 行 技 术 ， 实 验 中 的 最 大 加 速 比 达到 了 13.29; b) 在 说 入 式 应 用 领域 ， 该 技术 可 以 有 效 利 用 4 到 8 核 的 计算 资源 。 
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Abstract: How to effectively utilize the rich transistor resources provided by multi-core to accelerate the execution of serial 


programs is currently a hot issue in research. Thread-Level Speculation (TLS) aims at making full use of multi-core resources 


and maximizing the potentially parallelism in serial code. Atpresent, TLS technology has been effectively utilized to parallelize 


several serial applications. However, speculative thread level parallelism in embedded applications has not yet been explored 


thoroughly. Therefore, eight selected representative embedded applications were analyzed in this paper from their potential 


parallelism and runtime characteristics(data dependency, 


thread granularity and parallel coverage) 


in 


loop-level 


speculation. The experimental results show that: (1) for embedded applications, the speculative thread level parallelism is better 


than that in instruction level parallel technology, and the maximum speed up in experiment achieves 13.29. (2) In the field of 


embedded application, the technology can effectively utilize resources of 4 to 8 core computing. 


Key words: thread-level speculation; multi-core; embedded application; data dependency 


序 的 大 部 分 内 容 。 线 程 级 推测 (TLS) ， 或 称 推测 并 行 化 
0 ”5 引 喜 (speculative parallelization, SP) 作为 开发 串 行 程序 中 线程 级 并 
随 着 多 核 时 代 的 来 临 ， 如 何 有 效 利用 处 理 器 核 上 的 丰富 唱 行 性 的 关键 方法 ， 允 许多 个 线程 在 不 同 核 上 推测 执行 ， 以 提高 

体 管 资源 是 当前 研究 的 热点 问题 。 由 于 超标 量 技术 已 很 难 再 挖 。 程序 的 并 行 效果 。 
掘 并 行 性 ， 使 得 线程 级 并 行 thread-levelparallelism，TLP ) 技 由 于 早期 评测 处 理 器 性 能 的 指标 是 比较 其 每 秒 运行 指令 条 
术 得 到 了 迅猛 发 展 ， 且 该 技术 特别 适用 于 片上 多 核心 片 〈chip 数 的 多 少 (Million Instructions Per Second，MIPS ) ， 其 衡量 标 
multiprocessor，CMP ) "31。 目 前 ， 大 部 分 应 用 程序 还 是 根据 单 准 在 不 同 指 令 集结 构 上 很 难 统一 。 而 20 世纪 80 年 代 提 出 的 


核 处 理 器 所 设计 的 ， 若 要 在 CMP 上 执行 则 需要 重新 编写 该 程 
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评测 方法 ， 以 其 衡量 机 器 性 能 标准 
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更 为 全 面 的 优点 受到 了 业界 的 广泛 认可 。MiBench 是 Michigan 


大 学 推出 的 一 套 免 费 的 


| 
研究 


提升 潜力 和 运行 时 特征 进行 探讨 。 
MiBench 中 8 个 
设计 了 一 种 程序 动态 剖析 机 


等 核心 数据 结构 ， 用 于 分 析 程 序 在 推 计 


目前 


受到 学 术 界 的 广泛 认可 。 
FE 测 分 析 主要 集中 在 优化 


联 入 式 应 用 程序 基准 测试 集合 ， 该 集合 
于 测试 不 同 范围 内 的 基准 ， 其 源 代码 公开 ， 较 多 的 用 于 学 术 
究 申 。 因此 , 该 测试 集 在 推出 后 , 便 
1， 对 骨 入 式 应 用 程序 MiBench 的 订 
GCC 编译 器 外、 机 器 学 习 算法 外 以 及 代码 变异 风 等 方 
有 在 线程 级 推测 方面 对 其 分 析 评 测 。 

本 文 的 目的 是 对 骨 入 式 应 用 在 循环 


没 


级 推测 并 行 化 中 的 性 能 


有 代表 性 的 程序 和 


2.1 


全 


在 程序 的 


线程 在 核 
到 1 (b) 


甬 过 选取 嵌入 式 应 用 程序 
SPEC CPU 中 的 bzip2， 
制 ， 包 括 记 录 内 存 地 址 的 哈 希 结构 


上 并 行 化 中 的 依赖 特征 、 


线程 粒度 、 可 并 行 化 覆盖 率 和 核心 数量 对 加 速 比 的 影响 ， 并 根 


1 


1.1 


其 执行 过 程 与 目前 所 
方案 以 软 硬 件 结合 的 方式 , 实现 了 
的 设计 ， 推 动 了 TLS 的 发 展 。 而 
在 写 操 作 上 复制 的 cache 的 TLS 新 模型 ， 


据 影响 因素 在 硬件 资源 和 程序 性 能 方 


相关 工作 


典型 TLS 方案 
Multiscalart9] 技 术 方 案 , 虽然 没有 明确 提出 TLS 的 概念 , 但 
TLS 的 技术 方法 极其 相似 ;Hydra09 技 术 
TLS 机 制 并 简化 了 硬件 系统 


有 找到 一 个 平衡 点 。 


比 平均 提高 5.69 到 10.04 倍 ; Cao 等 


Wang 等 人 [1 提出 一 种 


好 缓冲 机 制 来 提高 TLS 的 性 能 , 而 目 
高 75% 以 上 ; 本 文 的 前 


的 线程 级 推测 并 行 性 进行 了 深入 分 析 。 


期 工作 03 也 对 


使 通用 应 用 程序 加 速 


人 0 提出 一 种 自动 选择 最 
大 部 分 程序 的 性 能 可 以 提 
反 向 神经 传播 网 络 等 应 用 
综 上 所 述 ， 线 程 级 推测 


技术 已 被 有 效 利用 在 多 种 类 型 的 串 行 应 用 并 行 化 工作 中 。 
1.2 嵌入 式 应 用 程序 的 相关 优化 


种 优 
的 力 


目前 ,关于 MiBench 的 加 速 评 涡 


0H 速 比 ， 


主要 有 : 文献 [6] 提 出 的 一 
化 过 GCC 编译 器 的 架构 ， 提 高 嵌入 式 应 用 程序 MiBench 


提出 用 机 器 学 习 算 法 ， 


通过 编译 器 优化 选择 算法 和 高 级 混合 消除 算法 与 
不 同 层次 的 优化 算法 进行 对 比 ; 文献 [7]9 


通过 降低 嵌入 式 应 用 程序 MiBench 的 时 间 和 空间 复杂 度 来 提高 


程序 力 


法 


程 


但 目 


2 


手段 ， 能 
而 对 蕊 片 设计 中 的 各 项 关键 性 
直接 进行 硬件 系统 开发 相 比 ， 仿 真 不 
设计 方案 地 有 效 性 验证 工作 ， 而 


前 ，MiBench 仍 未 在 线程 级 推测 


I 速 比 ， 并 与 文献 [6] 进 行 对 比 ; 文献 [8] 中 提出 一 种 新 颖 算 
代码 变异 ， 将 应 用 程序 转换 成 复杂 的 逆向 工程 ， 使 应 用 
序 的 动态 存储 和 控制 流行 为 发 生 转变 , 进而 转变 其 程序 性 能 。 


方面 进行 有 效 分 析 。 


推测 模型 和 剖析 机 制 
在 艺 片 设计 的 初始 阶段 ， 硬 件 


基于 特定 硬件 系统 模型 进行 全 方位 的 性 能 评测 ， 进 


仿真 作为 目前 最 有 效 的 技术 


它 
x 


推测 模型 
TLS 技术 可 以 将 程序 中 的 单个 线程 划分 为 多 个 可 自动 
执行 的 多 线程 。TLS 的 执行 过 程 为 : 
i ny 
并 行 执 行 过 程 品 
执行 回 深 操 作 重新 执行 该 线程 多 。 如 并 
上 顺序 执行 ,i 
程序 在 运行 时 ， 系 统 将 


将 这 些 线程 分 配 
知 其 余 核 加 载 程序 和 变量 
ee 
4 令 后 ， 则 I 


合作 期 和 


Chi 
下 得 庆 ， 等 : BARR 


一 人 


个 线程 ， 扒 


的 提交 顺序 进行 提交 
“vy 


| 


1 所 示 , 在 图 1(a) 中 ， 
然 使 用 的 执行 过 程 。 
分 解 为 许多 线程 ， 并 
F 始 ou 第 一 个 核 通 


和 转移 结构 ， 


程序 执行 性 
循环 结构 1， 其 
中 , 程序 循环 的 选择 上 
过 去 程序 运行 
比比 较 大 的 子 程序 中 的 

线程 粒度 和 数 ] 
指 一 个 线程 所 包含 的 动态 指令 类 
线程 数量 增多 ， 因 此 线程 的 各 种 操作 将 带 来 过 多 开销 ， 抵 消 推 
当 线 程 粒度 过 大 ， 则 分 发 的 线程 数量 减 小 ， 推 
此 依赖 冲突 的 概率 增 大 ， 进 


具 收 和 


测 


测 的 缓存 数 扩 
数据 依赖 指 子 线程 与 父 毕 
因此 , 文献 [19]j 


度 。 
系 。 


全 已 县 
El 


素 进行 分 析 和 权衡 。 和 


仅 可 以 高 精度 地 完成 硬件 


可 以 低 开 销 地 进行 各 种 硬件 


了 的 效果 ; 


居 增 多 ， 


设计 方案 的 全 面 比较 和 调整 。 因 此 ， 本 文 设 计 了 如 下 的 推测 模 


型 和 剖析 机 制 对 串 行 代码 中 的 推 涡 


I 并 行 性 进行 分 析 。 


会 产生 


图 


:能 的 关键 


值得 到 线程 间 数 所 
A 
消费 者 距离 (程序 和 
者 距离 /消费 者 距离 ) 。 当 


最 后 一 a 
i 


全 其余 核 。 当 其 


行 。 若 第 一 个 核 提 
计算 值 ， 以 达到 顺序 执 
后 计算 值 的 时 候 ， 便 


CPU3 


图 1 传统 程序 和 推测 线程 级 程序 运行 模型 

TLS 的 线程 划分 方案 常常 
取 程 序 中 的 循环 结构 和 子 程序 结构 
序 的 本 质 是 由 许多 机 器 指令 构 


ee 


空 制 流 特征 为 依据 ， 选 
3。 从 系统 结构 方面 看 ， 程 
主要 结构 包括 : 顺序 结构 
循环 控制 是 转移 结构 中 的 核心 部 分 ， 其 性 能 也 是 
9 主要 对 象 为 程序 中 的 
点 。 在 本 工作 


ee 


过 GNUProf 工 


re 2 


素 09, 线程 粒度 
时 粒度 过 小 ， 则 分 发 的 


a A 


| 2 (b) 一 样 ; 


而 降低 并 行 


昌 值 之 间 存 在 某 种 依赖 关 
E 离 ， 并 根据 此 比 
思想 如 图 2 (a) 所 示 ， 令 
开始 的 距离 ), B 为 
开始 的 距离 ) ,a=A/B (生产 
， 说 明 并 行情 况 良 好 ， 就 
串 行程 序 执行 相似 ， 如 
2(c) 所 示 。 在 本 文中 , 将 a <1 的 依赖 关系 称 之 为 致命 依赖 ， 
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将 1<a <2 称 为 危险 依赖 ， 将 a >2 称 为 安全 依赖 。 


.| . ' 
Write A Read A 


ReadA 


(a) 


2.2 剖析 机 制 


| 日 PeaeJuL 


qd peaiyL 


Vpeaiyl 
D peaiyL 
VV peaiyL 


9 Pealyl 


qd peaiyL 


图 2 消费 者 距离 与 生产 者 距离 ,理想 情况 下 与 非 理想 情况 下 # 


在 本 工作 中 ,针对 循环 的 剖析 了 


程序 中 具有 一 定 的 计算 量 且 夫 


高 的 可 并 行 化 区 域 为 


ee 将 其 作为 初步 的 候选 者 ;b) 
剖析， 对 影响 性 能 的 关键 
Re 进行 量化 分 析 ;c) 输 


源 代 码 


r 


人 工分 析 


| 


待 剖析 循环 
结构 信息 


GNU Prof& gq 输入 集 


如 图 3 所 示 ， 首 先 利 
对 程序 进行 初步 分 析 。 该 了 
以 及 函数 调用 关系 等 。 


子 程序 运行 的 时 间 比 例 ， 
供 的 信 息 ? 选取 内 中 时 间 


步 的 推测 候选 区 域 ， 然 后 在 


识 ， 经 编译 器 进行 交叉 纺 


译 得 到 可 执行 的 二 进 制 代 
后 ， 通 过 识别 汇编 文件 中 指令 


动 识别 剖析 标识 中 ， 利 用 
objdump4pisa， 肥 》 


译 保存 在 4 号 寄存 器 中 ， 


进 制 代码 文件 中 的 热点 区 雪 
的 关键 因素 进行 量化 分 析 ， 


起 


行 模型 


为 : a) 选取 
“热点 ” 
再 针对 这 些 热 点 区 域 进 
素 0 线程 粒度 和 


行 


] Linux 系统 自 带 的 GNU Prof 工具 
运行 时 各 个 
过 此 工具 提 
的 热点 片段 , 将 其 作为 初 
剖析 标 
牛 ;， 最 
1 二 


喜 


和 


也 址 的 指针 和 上 一 次 循 


ES 


| Chin 
下 得 庆 ， 竺 si 


盾 环 id， 开 始 时 间 ， 以 及 下 一 次 循环 展 
展开 地 址 的 指针 , hash_next 记录 的 
时 作 的 地 址 指针 ，hash pre 记录 的 


人 元 


行 时 间 ， ge 


呆 作 的 地 址 指针 。 当 剖析 部 分 的 后 
会 被 剖析 工具 拦截 ， 剖 析 工 具 
如 果 当 
则 将 当前 时 间 设 置 为 该 存储 单元 
村， 系统 还 会 保存 一 个 串 行 版 本 的 
ae 


loop_start (0, &i) : 
/开始 标识 */ 


$L2: 
Iw $2, 16 ($fp) 
Iw $3,N 
j] S$L3 
move $4,$0 
addu $5, $fp, 16 
Jal _lteration_ start 
jal _ltertion_end 
1w $3, 16 ($fp) 
addu $2, $3,1 
move $3, $2 
sw $3,16($fp) 
有 $L2 


loop_end 0) : /4 结 


有 具 中 循环 标识 示意 图 


list[o] int ee id 


3S11 


oa | ; iteration +) i iteration_t) Titeration tt 


[-_ int loop_id nt loop_id int loop_id 
jiteration_1ist_head 一 一 Start time| start time start time 


| 一 一 | next : w| next 
| pre jl : pre 可 
hash next -| hash_next hash next 


hash pre hash pre =- 


lteration_list_head 


literation list tail 上 


|iteration 1ist head 


循环 训 析 核心 数据 结构 示意 图 


实验 数据 及 分 析 


iteration_hash_entry ti 


工作 中 ， 实 验 所 采 月 


的 环境 具体 描述 如 表 1 所 示 。 
实验 环境 说 明 


寄存 器 中 。 此后, 剖析 工具 通过 
环 标 识 ， 对 热点 区 域 进行 剖 

根据 剖析 流程 ， 本 文 设计 的 循环 剖析 原理 
5 所 示 。 若 程序 中 包含 多 个 循环 ， 则 每 个 


loop id 被 编 
译 并 保存 在 5 号 
别 汇编 文件 中 的 jal 指令 和 循 
核心 数据 结构 如 
盾 环 被 分 解 为 n 个 


iteration list_entry_t, 且 每 个 iteration list_entry t 被 分 解 为 达 代 


次 数 N 个 的 iteration t 


结构 ，Hash_list 则 是 用 来 记录 对 储存 器 


写 入 操作 的 数据 结构 , 根据 Hash_list 中 的 iteration list head 和 
iteration list_tail 可 以 计算 生产 者 和 消费 者 距离 。 在 iteration t 


模拟 器 编译 器 


于 Simplescalar 采用 Simplescalar 工 


7 


中 的 sim- 具 集 中 提供 的 经 过 后 


fast 修改 扩充 版 本 端 改 造 的 gcc-2.7.2.3 


以 选择 simplescalar 工具 集中 的 sim-fast 模 


拟 器 进行 修改 扩充 ， 
其 运行 速度 使 剖析 时 让 


是 因为 该 模拟 器 每 周期 可 以 执行 一 条 指令 ， 
编译 器 的 开销 。 


MiBench 中 共 含 有 35 个 基 ; 


程序 , 而 本 文选 择 了 其 中 8 个 


选取 了 SPEC 中 的 Bzip2 进行 剖 
更 于 与 文献 [6] 进 行 数 据 对 比 。 所 选 应 用 程序 的 详细 列表 如 
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录用 稿 
表 2 所 选 应 用 分 类 及 应 用 说 明 
程序 名 分 类 应 用 说 明 
Dijkstra Network Dijkstra 算法 实现 
Bzip2 SPEC 无 损 压 缩 算法 实现 
统计 一 个 整数 数组 包含 的 bit 
Bitcount Automotive 
中 1 的 个 数 
Susan Automotive 图 像 识别 工具 包 
Jpeg Consumer JPEG 编 解 码 程 序 
Patricia Trie， 用 于 叶子 稀 朴 的 
Patricia Network 
树 结构 
Blowfish Security blowfish 加 密 / 解 密 算法 
3.1 时 间 对 比 


本 文 最 佳 运行 时 间 (mm) 与 文献 [6] 中 最 佳 时 
如 表 3 所 示 ， 表 中 A 为 该 程序 在 无 加 速 情况 下 运行 时 间 ，B 为 


文献 [6] 中 最 佳 加 速效 果 运 行 时 间 ，C 为 本 文 最 佳 运行 时 间 。 


间 (Cmm) 的 对 比 ， 


表 3 时 间 对 比 
程序 A B C 
Bzip2 8.81 5.28 5.03 
Bitcount 2.06 0.79 
Susan 14.18 7.16 6.92 
Jpeg 9.59 6.81 4.38 
Dijkstra 0.99 0.69 0.07 
Patricia 4.52 2.99 3.02 
Blowfish 14.8 8.63 7.51 
从 表 3 可 以 看 出 , 除了 network 的 Patricia 的 运行 时 间 略 小 
于 文献 [6] 中 运行 时 间 , 其 他 程序 运行 时 间 均 小 于 文献 [6] 中 的 最 
佳 运行 时 间 ， 由 此 表 可 以 证 明 本 工作 中 运用 的 线程 级 推测 技术 


产生 的 结果 要 好 于 优化 GCC 编译 器 所 产生 的 结 


3.2 ”加速 比分 析 
3.2.1 Dijkstra 


对 Dijkstra 程序 剖析 所 产生 的 加 速 比 如 图 
数 的 不 断 增加 ， 该 程序 的 加 速 比 呈 线性 增长 ， 
后 , 加 速 比 将 平衡 在 13.10 到 13.29 之 | 


程序 的 循环 之 间 确 实 不 存在 数据 依赖 ， 


区 域 很 高 ， 安 全 依赖 占 比 很 大 ， 所 以 该 程序 的 加 速 比 会 了 


并 且 该 程序 的 可 


数 的 增加 不 断 提高 ， 


但 到 了 64 核 便 达到 了 该 程序 的 推 讽 


ba 


化 限度 。 


图 6 dijkstra 在 不 同 核 数 条 件 下 的 加 速 比 


6 所 示 。 随 着 核 
而 到 了 64 核 之 
司 。 通 过 分 析 源 代码 发 现 
行 化 
秆 着 核 
上 并行 


3.2.2 Bzip2 


使 


、 


模拟 器 对 Bzip2 程序 进行 剖析 ， 得 到 的 加 速 比如 图 7 


合作 期 刊 ， 


Chi 
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所 示 。 通 过 对 程序 循环 进行 线程 级 并 行 分 析 ， 发 现 程序 在 4 核 
和 8 核 时 ， 加 速 比 增加 了 0.39 和 0.48。 


加 ， 


随 着 硬件 资源 的 继续 增 


与 4 核 和 8 核 的 加 速 比 对 比 发 现 ，4 核 和 8 核 的 加 速 比 


已 经 相对 趋 于 稳定 ， 虽 然 加 速 比 也 缓慢 增加 ， 但 却 浪费 了 硬件 


32 核 ”64 核 ”无 限 核 


3.2.3 Bitcount 
对 Bitcount 程序 的 剖析 结果 所 得 到 的 加 速 比 从 图 8 中 可 以 


7 ”Bzip2 在 不 同 核 数 条 件 下 的 加 速 比 


看 出 ， 当 核 数 由 2 核 逐 渐 增 加 到 8 核 之 前 ， 所 得 到 的 加 速 比 成 
线性 增长 ， 但 8 核 之 后 ， 加 速 比 不 在 提高 。 由 此 可 见 ， 合 理 利 
用 核心 数 ， 是 一 个 举足轻重 的 问题 。 
® 4 A 
燃 |15 
2 核 4 核 6 核 8 核 l 16 核 32 核 ”64 核 “无 限 校 
图 8 Bitcount 在 不 同 核 数 条 件 下 的 加 速 比 
3.2.4 Susan 
从 图 9 中 可 以 看 出 , 当 核 数 由 2 核 逐 渐 增 加 32 核 之 前 , 所 
得 到 的 加 速 比 呈 缓慢 线性 增长 趋势 ， 而 在 4 核 和 8 核 时 ， 加 速 
比分 别提 高 了 60% 和 80%。 结合 源 代码 分 析 发 现 该 程序 主要 是 
对 图 像 的 处 理 ， 基 本 处 理 都 是 逻辑 判断 。 因 此 ， 循 环 不 多 导致 
可 并 行 化 区 域 不 高 ， 所 以 该 程序 的 加 速 比 不 会 太 高 。 
网 a 
操 
”该 该 上 碎 该 ”16 核 52 核 ”64 核 天 机 
核 
图 9 Susan 在 不 同 核 数 条 件 下 的 加 速 比 
3.2.5 Jpeg 


从 图 10 中 可 以 看 出 ,程序 encode 和 decode 的 加 速 比 在 16 


核 之 前 都 不 高 ， 在 


所 提高 。 
的 数据 ， 


于 该 程序 是 压缩 
所 以 数据 依赖 较为 严重 。 


16 核 之 后 也 仅仅 是 encode 程序 的 加 速 比 有 
与 解压 的 应 用 ， 


得 到 理想 


想 的 


I 加速 比 。 


涉及 许多 指针 类 型 


即使 不 断 增加 核 数 ， 也 很 难 


201807.00060v1 


chinaXiv 


其 
录用 入 下 得 庆 ， 等 : asxai nA, 


人 Ee Ss Ee 
四 2 核 4 核 6 核 8 核 16 核 32 核 64 核 元 限 核 
图 10 jpeg 在 不 同 核 数 条 件 下 的 加 速 比 一 和 人 
3.2.6 Patricia 图 13 各 程序 归 一 化 后 的 加 速 比 变化 曲线 
对 Patricia 章 析 所 产生 的 加 速 比如 图 11 所 示 。 该 程序 不 适 ”3.3 ”影响 因素 分 析 
合 进行 推测 多 线程 处 理 ， 对 其 源码 分 析 发 现 ， 该 算法 的 实现 多 由 于 线程 粒度 、 并 行 化 覆盖 率 和 依赖 特征 都 是 线程 级 推测 
是 采用 指针 类 型 进行 编写 ， 导 致 循环 和 后 继 代码 之 间 数 据 依赖 ”的 影响 因素 因此 , 后 续 部 分 分 析 了 所 选 应 用 程序 的 线程 粒度 、 
非常 严重 ， 所 以 加 速 比 趋 于 稳定 。 可 并 行 化 覆盖 率 和 依赖 特征 对 加 速 比 的 影响 。 
线程 粒度 情况 如 图 14 所 示 ， 大 部 分 程序 的 线程 粒度 介 于 
1 10^6 到 10^8 之 间 ， 由 于 大 部 分 嵌入 式 应 用 程序 的 推测 线程 粒 
ja 1 度 比 通用 应 用 中 的 大 ， 所 以 针对 嵌入 式 应 用 的 推测 多 核 处 理 器 
全 二 设计 中 ， 推 测 缓存 的 设计 容量 应 比 通用 设计 提高 一 个 量 级 ， 以 
| | 避免 发 生 缓存 溢出 的 现象 。 
2 核 4 核 6 核 息 本 32 核 “64 核 无 限 核 


图 11 patricia 在 不 同 核 数 条 件 下 的 加 速 比 
3.2.7 Blowfish 

对 blowfish 剖析 所 产生 的 加 速 比 如 图 12 所 示 。 程 序 encode 
和 decode 的 加 速 比 在 8 核 之 前 相对 比较 稳定 , 而 在 8 核 之 后 加 


速 比 才 开始 上 升 , 并 且 到 了 64 核 其 加 速 比 才 增 加 了 1 倍 。 因 为 一 WW 
本 FF 
核 数 的 增加 ， 其 成 本 也 在 无 限 增加 ， 所 以 在 核 数 与 加 速 比 之 间 ’ Pda 
找到 一 个 平衡 点 非常 重要 。 当 然 由 于 程序 encode 和 decode 所 Sr 
存在 的 线程 粒度 、 可 并 行 履 盖 率 和 数据 依赖 等 问题 基本 一 致 ， 图 14 ”所 选 应 用 程序 的 线程 粒度 
所 以 产生 的 结果 也 如 出 一 毗 。 me HAL 和 多 多 天 
生生 各 乱 知 各 晨 短 入 
“encode 加 束 比 decode 加 如 比 70% 用 乡 AA Z Mg AN- 
se 乡 - 乡 - 痢 - 搬 玫 - 
2.5 50%6 WA 乡 乡 
2 40% Z 
摘 :2 重任- - 重 - -四 ， 
局 1 a RE 级 闻 浮 we ea So 
Ra 2 RE a Ro RN 
Ee 
2 核 4 核 6 核 8 核 16 核 32 核 64 核 无 限 核 PY 
一 图 15 ”所 选 应 用 的 可 并 行 化 覆盖 率 
图 12 blowfish 的 encode 和 decode 在 不 同 核 数 条 件 下 的 加 速 比 可 并 行 化 覆盖 率 如 图 15 所 示 ， 大 部 分 程序 的 覆盖 率 介 于 
3.2.8 数据 分 析 30% 到 50% 之 间 。 而 根据 阿 姆 达 尔 定律 ， 若 可 并 行 化 的 覆盖 率 
于 各 程序 所 涉及 到 的 影响 因素 各 不 相同 ， 得 到 的 加 速 比 越 高 ， 其 程序 才 有 利于 线程 级 推测 的 开发 。 因 此 ， 并 行 区 域 不 


也 截然 不 同 。 为 了 找 出 更 多 的 规律 ， 将 实验 得 到 加 速 比 做 了 归 ”高 也 是 导致 加 速 比 不 高 的 一 个 因素 。 


化 处 理 ， 即 分 别 以 各 种 情况 下 的 加 速 比 与 64 核 所 得 到 的 加 依赖 特征 a 的 分 布 如 图 16 所 示 ， 大 部 分 程序 的 致命 依赖 
速 比 相 比 ， 如 图 13 所 示 。 在 50% 以 上 , 其 中 3 个 程序 更 是 达到 了 90% 左 右 。 当 然 , 若 q>1l 
从 图 13 可 以 看 出 ， 除 程序 djjkstra 不 适合 利用 线程 级 并 行 ”的 程度 越 高 即 安全 依赖 越 高 ， 越 有 利于 线程 级 推测 的 开发 。 


加 速 之 外 ， 其 余 程序 均 随 着 核 数 的 增加 ， 加 速 比 增长 率 呈 缩小 ” 此， 导致 大 部 分 嵌入 式 应 用 程序 加 速 比 不 高 其 主要 原因 还 是 因 


趋势 ， 极 端的 情况 如 Bitcount， 当 核 数 大 于 4 时 ， 加 速 比 增长 ”” 为 致命 依赖 较为 严重 。 
率 趋 于 稳定 ;大 部 分 程序 在 4 核 到 8 核 之 间 时 ， 其 程序 加 速 比 结合 源 代 码 和 性 能 因素 影响 分 析 ， 发 现 造 成 嵌入 式 应 用 程 
达到 程序 性 能 与 硬件 资源 的 平衡 点 。 序 并 行 加 速 比 不 高 的 原因 主要 有 : 首先 ， 程 序 循环 迭代 的 线程 


粒度 较 大 而 导致 线程 之 间 的 数据 发 生 的 依赖 冲突 概率 增 大 ， 这 


录用 稿 

也 是 造成 所 选 应 用 程序 加 速 比 不 高 的 主要 原因 。 因 此 ， 在 编写 
程序 时 ， 应 注意 拆 分 比较 大 的 循环 体 ， 从 而 降低 线程 粒度 ， 其 
次 ， 大 部 分 程序 的 可 并 行 化 区 域 履 盖 率 不 高 ， 且 其 致命 依赖 较 
高 。 为 了 提高 程序 循环 的 并 行 化 限度 ， 降 低 致命 依赖 ， 在 编写 
代码 时 ， 应 特别 注意 在 循环 体 中 尽量 少 使 用 指针 型 数据 ， 或 者 
使 用 其 它 数据 替代 掉 指 针 数据 ， 从 而 使 程序 在 循环 级 线程 并 行 
取得 更 大 效益 ， 进 而 提高 程序 的 并 行 化 限度 。 


100% 
90% - 一 
80% 
70% 
60% N 
50% SS 
40% 养 安全 依赖 
30% 危险 依赖 
20% 员 到 命 依 惠 
10% 站 
0% 
SA Oo K v l E S RN RE E 
S FS 必 S & 局 E> 
本 ob RR RR 
3 
图 16 ”所 选 应 用 的 依赖 特征 


4 ”结束 语 


通过 


对 MiBench 中 的 大 部 分 程 


序 以 及 SPEC 中 的 B 


序 进行 线程 级 推测 并 行 


到 如 下 结论 : 


化 所 得 到 的 加 速 比 进行 


a) 利 用 线程 级 推测 对 杠 入 式 应 用 程序 的 加 


化 过 的 gcc 编译 


取 线 程 级 推 洲 


b) 在 MiBench 中 ， 当 核 数 增加 到 4 和 8 之 
序 的 加 速 比 可 达到 1.65 到 


器 所 产生 的 加 速效 果 
| 技术 可 以 对 嵌入 式 应 


。 因 此 ， 
用 程序 起 到 


4.89 之 间 ， 


84.5% 之 间 。 因 此 ， 当 国 


问 租 入 式 应 | 


的 数目 在 4 逢 


序 的 加 速效 果 达 

c 数 据 依赖 是 影响 循环 级 线程 
代 中 ， 如 果 适 
除 对 应 的 迭代 之 间 


加 速 比 性 能 
设计 多 核 处 理 器 时 ， 


zip2 程 


比较 和 分 析 ， 得 


速效 果 要 优 于 优 
在 多 核 时 代 ， 采 


很 好 的 加 
间 时 ， 大 


EE 


提高 


+ ， 即 可 以 提 
大 到 最 佳 。 


0 8 之 间 0 日 高 硬件 利用 


村 


E 测 的 主要 
当 的 修改 循环 体 或 者 循环 控制 中 
的 数据 依赖 或 者 控制 依赖 ， 


费 者 距离 / 生 ) 


者 距离 ) 比值 ， 可 以 提高 程序 循 3 


化 限度 ， 得 有 
于 硬 人 
入 式 计 


段 的 准 


I 更 高 的 加 速 比 。 
F 仿 真 处 于 芯片 研发 的 第 一 阶段 ， 
EF 佑 ， 才 能 进入 后 续 的 一 系列 更 精 


证 和 


实 硬件 


系统 评测 等 阶段 。 因 而 本 文 所 提 


得 出 


行 加 速 比 理论 
器 访 存 系统 工作 情况 ) 相 比 


率 ， 也 可 


因素 。 在 


速效 果 
部 分 程 


63.8% 到 | 


核心 
以 使 程 


循环 过 


的 变量 ， 


可 以 消 


五 


所 部 分 的 


只 有 通过 
准 的 硬件 
出 的 方案 


或 者 提高 a 


( 消 
可 并 行 


了 该 阶 
原型 验 
着 眼 于 


极 值 ， 与 实际 硬件 系统 运 


行 〈 特 别 


万 然 存 在 一 定 的 差 


这 些 嵌 入 式 应 ) 


的 评测 数据 。 


j 进 行 寄存 器 级 硬件 原型 仿真 ， 
同时 在 未 来 的 工作 中 ， 也 将 进 一 


基准 测试 程序 在 推测 子 程序 


[= 
Ts 


后 续 还 将 对 


是 处 到 


比 


进而 得 到 
步 剖 析 


结构 时 的 线程 级 


并 与 线程 级 循环 推测 的 可 并 行 化 限度 进行 对 比 ， 
推测 多 核 芯片 的 研发 提供 设计 依据 。 


E 测 可 


从 而 为 嵌 


更 精准 


分 析 该 
行 化 限度 


入 式 


» 
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